随着社交媒体成为错误信息传播的温床,谣言检测的关键任务已经见证了开源基准数据集促进的有希望的进步。尽管被广泛使用,但我们发现这些数据集遇到了虚假的相关性,这些数据被现有研究忽略了,并导致对现有谣言检测性能的严重高估。虚假的相关性源于三个原因:(1)基于事件的数据收集和标签方案将相同的真实性标签分配给来自同一基础事件的多个高度相似的帖子; (2)合并多个数据源,虚假地将源身份与真实标签联系起来; (3)标记偏见。在本文中,我们仔细研究了三个最受欢迎的谣言检测基准数据集(即Twitter15,Twitter16和Pheme),并提出了事件分隔的谣言检测作为消除虚假提示的解决方案。在事件分离的设置下,我们观察到现有最新模型的准确性大大下降了40%以上,仅与简单的神经分类器相当。为了更好地解决此任务,我们建议出版商样式聚合(PSA),这是一种可推广的方法,它汇总了发布者发布记录以学习写作样式和真实性姿态。广泛的实验表明,我们的方法在有效性,效率和概括性方面优于现有基准。
translated by 谷歌翻译
We present HetNet (Multi-level \textbf{Het}erogeneous \textbf{Net}work), a highly efficient mirror detection network. Current mirror detection methods focus more on performance than efficiency, limiting the real-time applications (such as drones). Their lack of efficiency is aroused by the common design of adopting homogeneous modules at different levels, which ignores the difference between different levels of features. In contrast, HetNet detects potential mirror regions initially through low-level understandings (\textit{e.g.}, intensity contrasts) and then combines with high-level understandings (contextual discontinuity for instance) to finalize the predictions. To perform accurate yet efficient mirror detection, HetNet follows an effective architecture that obtains specific information at different stages to detect mirrors. We further propose a multi-orientation intensity-based contrasted module (MIC) and a reflection semantic logical module (RSL), equipped on HetNet, to predict potential mirror regions by low-level understandings and analyze semantic logic in scenarios by high-level understandings, respectively. Compared to the state-of-the-art method, HetNet runs 664$\%$ faster and draws an average performance gain of 8.9$\%$ on MAE, 3.1$\%$ on IoU, and 2.0$\%$ on F-measure on two mirror detection benchmarks.
translated by 谷歌翻译
持续的19日大流行造成了全世界人民的不可估量的损失。为了遏制病毒的传播并进一步减轻危机,已经发布了各种健康政策(例如,在家命令),随着用户转向社交媒体分享他们的态度,他们引发了热烈讨论。在本文中,我们考虑了有关大流行病的立场检测(即跨目标和零照片设置)的更现实的场景,并提出了一个基于对抗性的学习立场分类器,以自动识别公众对与COVID相关健康健康相关健康的态度政策。具体而言,我们采用对抗性学习,使模型可以训练大量标记的数据并从源主题中捕获可转移的知识,从而使具有稀疏标记数据的新兴健康政策概括。同时,设计了一个地理编码器,鼓励模型学习每个区域指定的未观察到的上下文因素,并将其表示为非文本信息,以增强模型的更深入的理解。我们评估了与CoVID-19相关策略的立场检测任务中广泛基线的性能,实验结果表明,我们提出的方法在跨目标和零击设置中都达到了最新的性能。
translated by 谷歌翻译
AI Illustrator旨在自动设计具有视觉吸引力的图像,以激发丰富的思想和情感。为了实现这一目标,我们提出了一个框架,将具有复杂语义的原始描述转换为语义相应的图像。主要的挑战在于原始描述语义的复杂性,可能很难可视化(\ textit {e}。通常,它对现有方法构成了处理此类描述的挑战。为了解决这个问题,我们建议基于rompt \ textbf {c} ross- \ textbf {m} odal generation \ textbf {frame} work(pcm-frame)利用两个强大的预培养模型,,包括剪辑和Stylegan。我们的框架由两个组件组成:\ textIt {textIt嵌入} s到\ textit {image嵌入} s的投影模块,基于提示以及一个构建的适应图像生成模块,该模块构建了\ textit {image嵌入{image Embedding} s作为输入并受到共同语义一致性损失的训练。为了弥合现实图像和插图设计之间的差距,我们进一步采用了风格化模型作为后处理,以获得更好的视觉效果。受益于预先训练的模型,我们的方法可以处理复杂的描述,并且不需要外部配对数据进行培训。此外,我们已经建立了一个由200个原始描述组成的基准。我们进行了一项用户研究,以证明我们对复杂文本的竞争方法的优势。我们在https://github.com/researchmm/ai \ _illustrator} {https://github.com/researchmem/researchmm/ai \_illustrator上发布代码
translated by 谷歌翻译
现有的伪装对象检测(COD)方法在很大程度上依赖于具有像素注释的大规模数据集。但是,由于边界模棱两可,注释伪装物体像素 - 智能(每图像需要约60分钟),这是非常耗时的和劳动密集型的。在本文中,我们使用涂鸦注释作为监督提出了第一个弱监督的伪装对象检测(COD)方法。为了实现这一目标,我们首先构建了一个带有4,040张图像和相应涂鸦注释的基于涂鸦的伪装对象数据集。值得注意的是,注释我们数据集中使用的涂鸦每图像仅需约10秒钟,这比每像素注释快360倍。但是,直接使用涂鸦注释进行监督的网络将无法本地化伪装对象的边界,并且往往会有不一致的预测,因为涂鸦注释仅描述了没有细节的对象的主要结构。为了解决这个问题,我们提出了一个由两个部分组成的新型一致性损失:可靠的跨视图损失,以在不同图像上获得可靠的一致性,以及在单个预测图内保持一致性的软内部视图损失。此外,我们观察到,人类使用语义信息来段区域接近伪装物体的边界。因此,我们设计了一个特征引导的损失,其中包括直接从图像中提取的视觉特征和模型捕获的语义显着特征。此外,我们提出了一个新颖的网络,该网络通过对结构信息和语义关系进行涂鸦学习来检测伪装的对象。实验结果表明,我们的模型在三个COD基准上的表现优于相关的最新方法,MAE的平均提高为11.0%,S量表为3.2%,E-Measure 2.5%,加权F-的4.4%。措施。
translated by 谷歌翻译
现有的视频框架插值方法只能在给定的中间时间步骤中插值框架,例如1/2。在本文中,我们旨在探索一种更广泛的视频框架插值,该视频框架在任意时步。为此,我们考虑在元学习的帮助下以统一的方式处理不同的时间阶段。具体而言,我们开发了一个双元学习的帧插值框架,以通过上下文信息和光流的指导以及将时间步长为附带信息,将中间框架合成中间框架。首先,构建了一个内容感知的元学习流程模块,以提高基于输入帧的下采样版本的光流估计的准确性。其次,以精致的光流和时间步长为输入,运动吸引的元学习框架插值模块为在粗翘曲版本的特征图上使用的每个像素生成卷积内核,以生成输入的特征图上的每个像素生成预测帧的帧。广泛的定性和定量评估以及消融研究表明,通过以如此精心设计的方式在我们的框架中引入元学习,我们的方法不仅可以实现优于先进的框架插值方法,还可以实现优越的性能还拥有在任意时间步长以支持插值的扩展能力。
translated by 谷歌翻译
镜像检测旨在识别给定输入图像中的镜像区域。现有作品主要集中于整合语义特征和结构特征,以挖掘镜像和非摩尔区域之间的相似性和不连续性,或者引入深度信息以帮助分析镜像的存在。在这项工作中,我们观察到一个真实的对象通常与镜子中的相应反射形成松散的对称关系,这有助于区分镜子和真实对象。基于此观察结果,我们提出了一个基于双路对称性变压器的镜像检测网络(SATNET),其中包括两个新型模块:对称性吸引注意的注意模块(SAAM)以及对比度和融合解码器模块(CFDM)。具体而言,我们首先引入了变压器主干,以模拟图像中的全局信息聚合,并在两条路径中提取多尺度特征。然后,我们将高级双路径特征喂给Saams以捕获对称关系。最后,我们融合了双路径功能,并使用CFDM逐渐完善我们的预测图,以获得最终的镜面掩码。实验结果表明,在所有可用的镜像检测数据集上,Satnet优于RGB和RGB-D镜检测方法。
translated by 谷歌翻译
深度学习已成为火星探索的强大工具。火星地形细分是一项重要的火星愿景任务,它是漫游者自动计划和安全驾驶的基础。但是,现有的基于深度学习的地形细分方法遇到了两个问题:一个是缺乏足够的详细和高信心注释,另一个是模型过度依赖于注释的培训数据。在本文中,我们从联合数据和方法设计的角度解决了这两个问题。我们首先提出了一个新的火星地形细分数据集,该数据集包含6K高分辨率图像,并根据置信度稀疏注释,以确保标签的高质量。然后从这些稀疏的数据中学习,我们为火星地形细分的基于表示的学习框架,包括一个自我监督的学习阶段(用于预训练)和半监督的学习阶段(用于微调)。具体而言,对于自我监督的学习,我们设计了一个基于掩盖图像建模(MIM)概念的多任务机制,以强调图像的纹理信息。对于半监督的学习,由于我们的数据集很少注释,因此我们鼓励该模型通过在线生成和利用伪标签来挖掘每个图像中未标记的区域的信息。我们将数据集和方法命名为MARS(S $^{5} $ MARS)的自我监督和半监督分割。实验结果表明,我们的方法可以超越最先进的方法,并通过很大的边距提高地形分割性能。
translated by 谷歌翻译
随着现代建筑倾向于使用大量玻璃面板,玻璃表面变得越来越无处不在。然而,这对机器人,自动驾驶汽车和无人机等自主系统的运营构成了重大挑战,因为玻璃板可能会成为导航的透明障碍。存在的工作试图利用各种线索,包括玻璃边界上下文或反思,例如先验。但是,它们都是基于输入RGB图像的。我们观察到3D深度传感器光线通过玻璃表面的传输通常会在深度图中产生空白区域,这可以提供其他见解以补充RGB图像特征以进行玻璃表面检测。在本文中,我们通过将RGB-D信息合并到两个新型模块中提出了一个新颖的玻璃表面检测框架:(1)一个跨模式环境挖掘(CCM)模块,以适应从RGB和深度学习个人和相互的上下文特征信息,以及(2)深度失误的注意力(DAA)模块,以明确利用空间位置,在这些空间位置存在缺失的深度以帮助检测玻璃表面的存在。此外,我们提出了一个大规模的RGB-D玻璃表面检测数据集,称为\ textit {RGB-D GSD},用于RGB-D玻璃表面检测。我们的数据集包含3,009个现实世界的RGB-D玻璃表面图像,并具有精确的注释。广泛的实验结果表明,我们提出的模型优于最先进的方法。
translated by 谷歌翻译
图形卷积网络(GCN)由于学习图信息的显着表示能力而实现了令人印象深刻的性能。但是,GCN在深网上实施时需要昂贵的计算功率,因此很难将其部署在电池供电的设备上。相比之下,执行生物保真推理过程的尖峰神经网络(SNN)提供了节能的神经结构。在这项工作中,我们提出了SpikingGCN,这是一个端到端框架,旨在将GCN的嵌入与SNN的生物层性特征相结合。原始图数据根据图形卷积的合并编码为尖峰列车。我们通过利用与神经元节点结合的完全连接的层来进一步对生物信息处理进行建模。在各种场景(例如引用网络,图像图分类和推荐系统)中,我们的实验结果表明,该方法可以针对最新方法获得竞争性能。此外,我们表明,在神经形态芯片上的SpikingGCN可以将能源效率的明显优势带入图形数据分析中,这表明了其构建环境友好的机器学习模型的巨大潜力。
translated by 谷歌翻译